为什么蛋白质兼具可塑性与稳定性?从进化视角揭示生命复杂系统的内在平衡
1. 可塑性(plasticity)和稳定性(robustness):
矛盾还是互补?
生命系统常常表现出高度的“可塑性”,这种可塑性反映出系统随环境变化状态“可变”的一种特性。当生物来到了一个新的环境,常常可以很快地适应新的环境,这就是一种可塑性;再比如说,我们的大脑可以不断学习新的知识,这也是一种可塑性;通过选择与进化,生物变得越来越适应某种环境,这也可以看成是一种可塑性。
与可塑性相反的一个概念是稳定性(robustness,平时也翻译为鲁棒性、稳健性等,本文为简单起见,统一称为“稳定性”)。例如,恒温动物的体温在不同的环境下可以保持在相对稳定的范围内,这体现的就是一种稳定性。稳定性所反映的是系统随环境变化状态“不变”的一种特性。可塑性与稳定性,代表着复杂系统“可变”与“不变”这样一个基本矛盾。
一个系统,通常要么是具有可塑性,要么是具有稳定性,很难同时实现这二者。当然,在复杂系统中,通过一些精巧的平衡,系统可以同时具有可塑性和稳定性——我们的大脑既可以学习崭新的知识(可塑),又能保持那些古老的回忆(稳定)。更多的,我们常常会看到,在一个复杂系统中,有的变量表现出稳定性,而另外一些变量表现出可塑性。
这种现象其实在经典的热力学中经常出现。热力学中有许多共轭的变量,例如体积和压强。当两个变量互为共轭的时候,增大其中一个量的可变性,实际上就是在增大其共轭变量的稳定性。例如,在一个化学反应中,如果我们固定系统的压强(等温等压系综),系统的体积则有可能会发生剧烈的变化,反过来,如果固定体积,那么压强又会有剧烈的变化。总之,体积的可变性跟压强的稳定性可以同时实现,而压强的可变性跟体积的可变性也可以同时实现。从直观上来看,看起来有点像量子力学的“不确定关系”。
在生物系统的适应性等问题中,这种类似的共轭关系也广泛存在,举个例子,在一个振动问题中,相位和频率也有类似的共轭关系,因此,相位的可变性跟频率的稳定性是可以同时实现的。这很好理解,当我们从一个时区移动到另一个时区,我们很快便适应了这个新时区的生活,这里,我们所适应的,其实就是新环境下的“相位”,而在新的时区,仍然每天是24个小时,即频率保持稳定,相位可以调节[1]。试想在未来,人类(或者其它生物)需要经常在昼夜时长不同的星球上生活,到那时,我们或许会更想要相位保持稳定、而频率保持可变的生物钟。
总之,尽管“可变”和“不变”无法同时实现,但是在一个复杂系统中,可塑性和稳定性未必总是矛盾的,我们常常可以看到,系统的某一部分具有强的可塑性,而另外一部分变量保持高的稳定性。特别的,当两组变量互为共轭的时候,增强其中一部分变量的可塑性,实际上可以帮助提高与之共轭的一部分变量的稳定性,反正亦然。沿着这一思路,我们近期在 Physical Review Research 上发表了一篇理论研究的文章,这篇文章描述了蛋白质的功能敏感性和突变稳定性之间的关系,这一关系同样体现了可塑性与稳定性之间的互补性。在这篇文章里,我将简要概述一下文章的主要思路,如果你对相关的细节感兴趣,可以直接阅读我们的论文[2]。
原文题目:
Functional sensitivity and mutational robustness of proteins
原文地址:
https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.2.033452
2. 蛋白质的功能敏感性(functional sensitivity)和
突变稳定性(mutational robustness)
延续在上一节中提到的“互补关系”,我们想到了这样一个问题:一个系统对外界(external)扰动的敏感性和对内部(internal)扰动的稳定性之间,是不是也具有类似的互补关系。请注意,这里我们将上一节中的“可塑性”切换成了“敏感性”,这是因为系统的敏感性特征往往与可塑性是紧密联系的,因为只有当敏感地感知到外界环境的变化,才能对这种变化做出改变,这种响应关系所反映的就是系统的敏感性特征。我们将系统对外界扰动的敏感性称为“功能敏感性”,将系统对内部扰动的稳定性称为“突变稳定性”。之所以这样定义这两个概念,主要是考虑到它背后的生物学的实际意义。
我们将生物体内各种生理功能的主要执行者——蛋白质分子——作为我们关注的系统。蛋白质在发挥功能的时候,常常对于外界的扰动和噪声有高度的敏感性,甚至表现出类似于“临界态”的高敏感性(susceptibility)特征[3],并能根据外界环境中的扰动做出相应的构象变化,我们将蛋白质分子在功能动力学(functional dynamics)中,针对外界扰动所体现出来的敏感性叫做“功能敏感性”。与此同时,蛋白质分子在面临着内部的扰动时,常常表现出高度的稳定性。
与此同时,蛋白质在面对分子内部的扰动(突变)时,表现出了高度的稳定性。尽管的确有些关键突变会影响蛋白质的功能或折叠,但蛋白质对于绝大多数的突变都具有很高的容忍度。这也很好理解,因为一旦失去了突变稳定性,蛋白质的性质和功能将无法被遗传,试想,一个能有效执行生物学功能的蛋白质分子,一旦引入一个小小的突变,马上就变得无法再发挥功能,造成适应度(fitness)大减,这样的分子在自然选择的过程中是不利的。为了描述这种在应对突变时的稳定性,我们定义了“突变稳定性”这一概念,它刻画的是系统在经过突变之后,在多大程度上能够保持其原有性质的一种能力。只有当一个系统的突变稳定性很高,那么在进化的过程中,这个生物系统的所执行的功能才可以被保持下来。
用一个简单的例子来帮助大家理解这两个概念。假设我们有一个机器翻译系统。我们要测试这个翻译系统的“功能敏感性”,首先,我们给这个系统一个输入“我太饿了”,系统给出了一个翻译“I am so hungry.”,接着,我们给刚才的输入一个小小的扰动,让它变成“我太太饿了”,如果这个翻译系统足够优秀,对于这个小小的扰动,系统决不能无动于衷,而是要做出相应的改变(输出“My wife is hungry.”)。这样的系统就是对于外界输入具有功能敏感性的系统。
接着,我们希望来测试一下这个翻译系统的“突变稳定性”。它对应的是,我们对这个机器翻译系统的人工神经网络的内部结构进行一些微小的突变,例如对神经网络连接的权重进行一些微小的修改,如果神经网络经过了突变,这个翻译系统还是可以正确翻译,那么就说明,这个机器翻译系统本身是高度稳定的,在机器学习问题中,这样的系统往往会具有较高的泛化(generalization)能力,我们在这里暂时不再对这一问题进行更多的延伸。总之,定量刻画理解功能敏感性和突变稳定性之间的关系,不仅可以帮助我们更深刻地认识蛋白质的功能运动和突变进化之间的关系(这是生物“基因型—表现型”关系中极为重要的一环),也能加深我们对于复杂系统和人工智能系统的理解。
3. 定量分析和讨论
下面,我将简单介绍一下我们对蛋白质系统的功能敏感性和突变稳定性的定量描述。因为这个工作的主要目的是为了建构关于蛋白质“基因型—表现型”的理论,为简单起见,我们这里仅考虑蛋白质的天然态动力学。此时,我们可以将蛋白质的运动简化为天然态(能量最低结构)附近的振动。在实践中,可以用弹性网络模型(elastic network model)来描述蛋白质的天然态动力学[4],在这种模型中,构成蛋白质的基本单元(氨基酸残基)被描述为一系列的小球,这些小球之间由弹簧连接,连接关系由蛋白质的天然态结构决定。这样,蛋白质的振动问题就变成了力学中的一个经典问题,即求解耦合振子的振动模式,这个问题也与结构化学中求解分子的振动模式、或者固体物理中求解晶体中的格波是类似的。注意到弹性网络模型是一个线性模型,而弹性网络的拓扑结构可以由该网络的拉普拉斯矩阵(graph Laplacian)描述,该 Laplacian的特征值(eigenvalue)正比相应振动模式的频率的平方,而与这些特征值相对应的特征向量(eigenvector)则描述了相应振动模式的基本形态。
有了这样一个模型框架,我们就可以来定量刻画“功能敏感性”和“突变稳定性”。在本文中,我希望不用公式,介绍相关定义的基本思路。
图3. 蛋白质的功能敏感性(A)与突变稳定性(B)的定义示意图
如前所述,功能敏感性描述的是系统在外界扰动下的响应情况。根据这个定义,很容易想到,在相同的噪声情况下,结构涨落越大的分子功能敏感性越高,而这个涨落的大小可以用蛋白质的构象熵(conformation entropy)来描述,熵越大,可能的结构数也就越多。经过数学推导,可以发现,这个熵与振动谱中振动频率(特征值)的乘积的对数有关。当所有频率的乘积越小时,系统的熵越大,这个结果有很直观的意义。一方面,这个乘积可以看成是高维空间中的一个椭球,椭球的大小即为构象空间的体积;另一方面,这一结果也有很直观的物理意义,如果一个系统有大量低频的模式,那么很小的能量就能激发出系统大振幅的运动。当我们希望最大化一个蛋白质分子的构象熵时,我们实际上是希望这个分子有尽可能多的低频的振动模式。换句话说,我们希望这个分子的振动谱中有大量集中在接近0的特征值。
接着,我们来考虑定量刻画一个分子的“突变稳定性”。而我们在这里所考虑的“突变”,是对系统内部的扰动,换句话说,是要对网络的拓扑做些改变,看看经过这一改变,系统的动力学到底发生了些什么变化。前面提到,特征值相对应的特征向量描述了与功能相关的振动模式的基本形态,如果在突变前后,相应的特征向量没有发生太大的改变,则说明这个系统具有较高的突变稳定性,而如果网络结构的变化特征向量发生了巨大的改变,则说明系统对突变是敏感的。怎样定量刻画这种稳定性或敏感性呢?根据微扰论(或根据Davis-Kahan定理),可以证明,第i个特征向量的突变稳定性与它所对应的特征值(λi)及其近邻的特征值(λi-1和λi+1)之间的距离(gap)有关,如果要最大化第i个特征向量的稳定性,那么我们需要最大化λi和它相邻的特征值之间的距离。如果我们希望让所有的特征向量都尽可能稳定,那么我们需要让振动谱中,各个特征值与它的近邻值之间的最小距离最大化。而要最大化这个最小距离,我们所期待的是一个均匀的特征值分布。
从上面的讨论中我们可以看到,如果希望最大化一个系统的“功能敏感性”, 我们希望这个分子的振动谱中有大量集中在接近0的特征值;如果希望最大化一个系统的“突变稳定性”,我们希望得到一个均匀的特征值分布。这两个优化的目标之间存在一定的矛盾。为了在这两个优化目标之间达成某种平衡,我们用熵最大化的方法,将功能敏感性作为一个约束条件(除此之外的约束条件还有归一化和系统的总能量或者说总连边数固定),最大化系统的突变稳定性(也可以反过来做),最终得到了一个幂律(power-law)的特征值分布。众所周知,幂律是临界现象的一个重要特征,这一结果从理论的角度证明了临界性对于蛋白质系统的重要意义,它不仅保证了蛋白质系统对于外界扰动的敏感性,也让蛋白质分子本身的进化变得更加稳定。
4. 生物系统动力学中的低维特性
在上面的讨论中,我们以蛋白质这样一个具有多自由度的系统为例,讨论了其功能敏感性和突变稳定性之间的平衡关系。值得注意的是,当系统的自由度很低时,“功能敏感性”和“突变稳定性”这二者之间根本就不存在矛盾。
我们来看下面一个例子,这个例子也常常被用来描述机器学习系统的泛化问题[5]。如下图所示,图中的黑色实线代表着一个1维的能量面,在这个能量面上有两个能量极小值点(两个势阱),其中左边的一个比较陡峭(极小点附近曲率较大),另一个则比较平坦(极小点附近曲率较小)。当小球落在比较陡峭的势阱中时,如果给它一些扰动,小球的运动(涨落)是比较小的(如图中棕色虚线所示),而当小球落在比较平坦的势阱中时,给小球同样大小的扰动,那么它可以有比较大的涨落幅度。这里,我们所讨论的扰动都与能量面(系统)本身无关,这种扰动来自于系统以外,因此系统对扰动的敏感性体现为“功能敏感性”。另一方面,我们也可以考虑对系统(能量面)本身作扰动,例如对能量面作一个小小的平移(移动到浅蓝色的曲线),如果扰动前后,原势阱附近的能量变化很小,就说明在这个势阱附近,系统是突变稳定的,反之则是突变敏感的。如下图所示,陡峭的势阱经过平移,原先能量极小值点的能量增加了许多,是突变敏感的;而平缓的势阱在经过平移之后,能量的改变很小,因此是突变稳定的。
上面的这个例子如果用数学语言来说的话,系统对外界扰动的敏感性可以用势函数对变量(variable)的二阶导数(与我们前面提到的“曲率”相关)来描述;系统对内部扰动的稳定性性可以用势函数对参数(parameter)的二阶导数来描述,前者对应于势函数对变量的Hessian矩阵;后者对应于势函数对参数的Hessian矩阵,而它在统计学中对应于Fisher信息矩阵,这里我们不再延伸讨论。总之,综合以上的结果,我们发现,在这样一个低自由度的系统中,功能敏感性(系统对外界扰动的敏感性)与突变稳定性(系统对内部扰动的稳定性)是联系在一起的,甚至可以说是等价的(证明略)。
我们也可以从上一节中所介绍的特征值的相关特性来说明这种等价性。我们考虑一个二能级系统,它本身的两个特征值为E1和E2,E1≤E2,我们考虑固定这两个特征值的和,这相当于固定了系统的总能量(在弹性网络中对应于总边数,证明略)。如果要最大化这个系统的突变稳定性,正如之前讨论的,需要最大化这个系统两个值之间的距离。而如果要最大化系统的功能敏感性,我们则希望最小化其中较小的特征值,让它尽可能接近于0,这样该模式所对应的运动就可以被很小的扰动而激发。在这个仅有很小自由度的体系中,不管是最大化功能敏感性还是突变稳定性,我们都需要最大化特征值之间的距离。
对于较多自由度的系统,情况当然会比这更复杂,在上一节中,我们用熵最大化的方法讨论了相关的问题。有意思的是,如果我们从真实的蛋白质结构出发,搭建弹性网络模型,并计算其振动谱分布,接着,我们可以分别计算出这个体系的功能敏感性(用特征值的乘积表示)和突变稳定性(用特征值的差表示)。有意思的是,我们发现,蛋白质分子的功能敏感性和突变稳定性二者是成正比的。这个现象看起来很简单,但仔细想想,却不那么简单,因为如果我们随机选择两个数字,显然不可能保证这两个数的乘积跟差的绝对值(或者商)成正比。这个结果表明,看起来有很多自由度的蛋白质体系,其实跟前面提到的二能级系统类似,看起来有许多自由度的蛋白质动力学和进化现象,其实是非常低维的。
在蛋白质分子以外,许多其它生物系统也常常表现出低维特性,这种现象并不难理解。首先,两个原本独立的自由度可能通过约束条件,直接变成非独立的自由度,而生命作为一个复杂系统,内部有海量的约束,这些约束不是让系统的自由度增加,而是让系统的自由度降低。其次,生命系统的内部也还有许多其它物理的约束,例如对称性、几何空间或者几何维度的约束、能量的约束等等,这些约束也让生物系统的实际自由度数大大地降低了。
有意思的是,生命系统不仅常常表现出较低的自由度,而且常常随着进化的进行,它还往往会变得越来越低维,关于这种现象,可以参考论文[6]。举个例子,比方说,在某种特殊的环境(pH、盐浓度)下培养细菌,然后不断选择适应这一环境的细菌,最终,细菌体内的生物网络将表现得越来越“低维”。这种现象可以有一个直观的解释,大家在讨论各种社会经济问题时,常常用到一个词,叫“内卷”,这种进化过程中的“降维”可以被非常粗略地理解成一种“内卷”。如果细菌体内的某些基因的表达或者某些通路的激活能极大地提高其在特定环境下的适应度,那么在进化中,这些基因或者通路就有可能会不断强化(当然,这也会伴随着边际效用递减),与之相比,其它相互作用的效应就逐渐减弱了,整个系统可以被更简单的模型所描述,换句话说,系统的维度也就下降了。而我们所提出的关于功能敏感性和突变稳定性的理论,为这种伴随着进化而出现的“降维”提供了另一种解释的图像。在这一图像下,随着进化的进行,随着系统维度的降低,“功能敏感性”和“突变稳定性”这两个看起来不同的目标变得一致。
参考文献:
[1] Hatakeyama, T. S., & Kaneko, K. (2015). Reciprocity between robustness of period and plasticity of phase in biological clocks. Physical Review Letters, 115(21), 218101.
[2] Tang, Q. Y., Hatakeyama, T. S., & Kaneko, K. (2020). Functional sensitivity and mutational robustness of proteins. Physical Review Research, 2(3), 033452.
[3] Tang, Q. Y., Zhang, Y. Y., Wang, J., Wang, W., & Chialvo, D. R. (2017). Critical fluctuations in the native state of proteins. Physical Review Letters, 118(8), 088102.
[4] Bahar, I., Lezon, T. R., Yang, L. W., & Eyal, E. (2010). Global dynamics of proteins: bridging between structure and function. Annual Review of Biophysics, 39: 23-42
[5] Keskar, N. S., Mudigere, D., Nocedal, J., Smelyanskiy, M., & Tang, P. T. P. (2016). On large-batch training for deep learning: Generalization gap and sharp minima. arXiv preprint arXiv:1609.04836.
[6] Sato, T. U., & Kaneko, K. (2020). Evolutionary dimension reduction in phenotypic space. Physical Review Research, 2(1), 013197.
作者:傅渥成编辑:邓一雪
复杂科学最新论文
集智斑图收录来自 Nature、Science 等顶刊及arXiv预印本网站的最新论文,包括复杂系统、网络科学、计算社会科学等研究方向。每天持续更新,扫码即可获取:
推荐阅读
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
👇点击“阅读原文”,追踪复杂科学最新顶刊论文